export CUDA_VISIBLE_DEVICES=7

# 1024*1024 bz 1 <=31GB   
# 1024*2048 bz 1 43.40GB  
#           1.273148 day = 10k 
#           0.6 day = 5k
# 训练计划  第一种  embedding 相加
#          第二种  concat => embder => embedding
#          第三种  embeding attn
# 使用随机大块 mask ， 基于 depth ， 使用 redux 训练

# accelerate launch \
# --config_file accelerate_one_config.yaml \
python train_flux_depth_local.py \
--jsonl_for_train data_depth_control_50k.json \
--cache_dir /mnt/nas/shengjie/cache/ \
--image_column img_path \
--resolution_height 1024 \
--resolution_width 1024 \
--output_dir /mnt/nas/shengjie/depthcontrol0822_output/ \
--logging_dir logs \
--mixed_precision bf16 \
--pretrained_model_name_or_path /data/models/FLUX.1-Fill-dev \
--train_batch_size 1 \
--dataloader_num_workers 4 \
--max_train_steps 400000 \
--checkpointing_steps 2000 \
--rank 128 \
--gradient_checkpointing \
--use_8bit_adam \
--learning_rate 1e-4 \
--lr_warmup_steps 0
# --offload 
# --quant_transformers